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Spracherkennungssystem, Trainingseinrichtung und Verfahren zum iterativen Berechnen 
freier Parameter eines Maximum- Entropie-Sprachmodells 



Die Erfindung betrifft ein Verfahren zum iterativen Berechnen freier Parameter . « 
eines Maximum-E.ntropie-Sprachmodells MESM in einem Spracherkennungssystem mit 
Hiife des Generalised-Iterative-Scaling-Trainingsalgorithmus gemafi folgender Pormeh 



G(;i; 



or1ho(n} ^ ortho 



\ •••) 



(1) 



10 wobei: 
n 
G 
a 



15 



: einen Iterationsparameter; 
: eine mathematische Funktion; 
: ein Merkmal in dem MESM; und 

: einen gewiinschten orthogonalisierten Randwert in dem MESM fiir das 
Merkmal a bezeichnen. 



20 



25 



Die Erfindung betrifft weiterhin ein im Stand der Technik bekanntes computerunter- 
stutztes Spracherkennungssystem sowie eine bekannte computerunterstiitzte Trainings- 
einrichtungy in denen das beschriebene Verfahren eingesetzt wird. 

Ausgangspunkt fiir die Erstellung eines Sprachmodells, wie es in einem computergestiitzten 
Spracherkennungssystem zur Erkennung von eingegebener Sprache verwandt wird, ist eine 
vordefinierte Trainingsaufgabe. Die Trainingsaufgabe bildet bestimmte statistische Muster 
in der Sprache eines zukiinftigen Benutzers des Spracherkennungssystems in ein System 
von mathematisch formulierten Randbedingungen ab, welches im allgemeinen folgende 
Gestalt hat: 



i: N{h).p(w\hy fXh,w) = rna 



(2) 



wobei: 
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N(h) . 
P (w|h) 

f - (h,w) 

tria 



die Haufigkeit der Historic h in einem Trainingskorpus; 

Wahrscheinlichkeit p(w | h), mit welcher sich ein vorgegebene^ 
Wort w an eine bisherige Wortfolge h (Historic) anschlicSt; 

cine binare Mcrkmalsfiinktion fiir ein Merkmal a; und 

einen gcwunschtcn Randwert in dem System von 
Randbedingungen; 



10 bezeichnet. 

Die Losung dieses Systems von Randbedingungen, d.h. der Train ingsaufgabe, wird durch 
das sogenannte Maximum Entropie Sprachmodell MESM gebildet, welches cine geeignete 
Losung des Systems von Randbedingungen in Form einer geeigneten Definition der 
15 Wahrscheinlichkeit p(w | h) angibt, die wie folgt lautct: 



a ^ 



(3) 



wobei: 
20 TX (h) 

X 



einen historienabhangigcn Normierungsfaktor; 
einen freien Parameter zum Merkmal a; 
den Satz aller Parameter 



25 



bezeichnen. Fiif die iibrigen Parameter gilt ihre obige Definition. 

Die binare Merkmalsfunktion fa(h,w) trifft beispielsweise eine binare Entscheidung, ob 
vorgegebene Worte an bestimmten Stellen in vorgegebenen Wortfolgen h,w enthalten sind. 
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Ein Merkmal a kainn im allgemeinen ein einzelnes Wort, eine Wortfolge, eine Wortklasse 
(z.B. Farbe oder Verben), eine Folge von Wortklassen oder komplexere Muster 
bezeichnen. 

5 In Fig. 4 sind vorbestimmte Merkmale in einem Sprachmodell beispielhaft dargestellt. So 
reprasentieren die dargestellten Unigramme jeweils ein einzelnes Wort, die Bigramme 
jeweils eine Wortfolge bestehend aus zwei Worten und das abgebildete Trigramm eine 
Wortfolge bestehend aus drei Worten. Das Bigramm "OR A" schlie{?t das Unigranrmn "A" 
ein und umfasst dariiber hinaus ein weiteres Wort; es wird deshalb als hoher-reichweitig 
10 gegeniiber dem Unigramm "A" bezeichriet. Analog ist das Trigramm "A WHITE 

HOUSE" von hbherer Reichweite als das Unigramm "HOUSE,, oder als das Bigramm 
"WHITE HOUSE". 

Die freien Parameter X werden so angepasst, dass Gleichung 3 eine Losung fur das System 
15 von Randbedingungen gemafi Gleichung 2 darstellt, Diese Anpassung erfolgt ublicherweise 
mit Hilfe bekannter Trainingsalgorithmen. Ein Beispiel fiir einen derartigen Trainigsalgo- 
rithmus ist der sogenannte Generalized Iterative Scaling GIS- Algorithmus, wie er z.B. in 
J.N, Darroch and D. Ratcliff, „Generalized iterative scaling for log linear models,,. Annals 
Math. Stat., 43(5): 1470- 1480, 1972 beschrieben wird. 

20 

Dieser GIS-Algorithmus sieht eine iterative Berechnung der freien Parameter X vor. 
Traditionell erfolgt diese Berechnung allerdings recht langsam. Zur Beschleunigung dieser 

f 

Berechnung wird im Stand der Technik vorgeschlagen, die Merkmalsfunktionen ^ « (h,w) 
in dem System von Randbedingungen gemafi Gleichung (2) durch orthogonalisierte 

/ortho 
jLj ivxcii^ii<u^iixiir.ii^i»i-ii ^ (h,w) zu substituieren; siehe dazu R. Rosenfeld "A maximum 
entropy approach to adaptice statistical language modelling"; Computer Speech and 
Language, 10:187-228, 1996. 

Mit der Substitution der Merkmalsfunktionen auf der linken Seite in Gleichung 2 andern 

sich allerdings auch die Randwerte auf deren rechter Seite. Damit wird das urspriing- 
30 liche System von Randbedingungen, d.h. die urspriingliche Train ingsaufgabe bei den 
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ublichen Ansatzen zum Schatzen der Randwerte verandert; siehe dazu Rosenfeld a.a.O., S. 
205, l.Satz des vorletzten Absatzes. 

Es ist insofern als Nachteil des Standes der Technik festzustellen, dass bei der 
5 beschleunigten Abwicklung des GIS-AIgorithmus die freien Parameter X auf eine ver- 
anderte Trainingsaufgabe trainiert werden. Die auf diese Weise berechneten Parameter X 
bewirken bei Einsetzung in Gleichung 3 nur eine unzulangliche Anpassung des Sprach- 
modells an die urspriingliche Trainingsaufgabe. 

10 Ausgehend von diesem Stand der Technik ist es die Aiifgabe der Erfindung, ein bekanntes 
computergestiitztes Spracherkennungssystem, eine computergestiitzte Trainingseinrichtung 

und ein bekanntes Verfahren zum iterativen Berechnen freier Parameter ^ eines 
Maximum-Entropie-Sprachmodells in dem Spracherkennungssystem derart weiterzu- 
bilden, dass sie eine schnelle Berechnung der freien Parameter X ohne Veranderung der 
15 urspriinglichen Trainingsaufgabe ermoglich en. 

Diese Aufgabe wird gemafi Patentanspruch 1 dadurch gelost, dass bei dem bekannten, 
einleitend beschriebenen Verfahren zur Berechnung der freien Parameter X nach dem GIS- 

Algorithmus jeder gewunschte orthogonalisierte Randwert " durch Linearkombi- 

20 nation des zugehorigen gewiinschten Randwertes mit gewiinschten Randwerten 

von zu dem Merkmal a hoher-reichweitigen Merkmaien P berechnet wird. Hierbei sind 

und gewunschte Randwerte der ursprunglichen Trainingsaufgabe. 

ortho 

Die Verwendung der so berechneten Randwerte ^ ° ermoglicht vorteiihafterweise eine 
25 verbesserte Approximation der freien Parameter X und damit eine Verbesserung des 
Sprachmodells im Hinblick auf die urspriingliche Trainingsaufgabe. Diese qualitative 
Verbesserung ist moglich bei gleichzeitiger Realisierung einer hohen Konvergenz- 
geschwindigkeit fiir die freien Parameter X bei deren iterativer Berechnung mit Hilfe des 
GIS-Algorithmus. 

30 
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Die Verwendung der erfindungsgemafi berechneten gewunschten orthogonalisierten 

Randwerte ^ empfiehlt sich fur verschiedene Varianten des GIS-Trainings- 
algorithmus, wie sie in den Unteranspruchen 12 und 13 beschrieben sind. 

5 Die Aufgabe der Erfindung wird weiterhin durch ein Spracherkennungssystem aiif Basis 
des Maximum Entropie Sprachmodells MESM gemafi Patentanspruch 14 und eine 
Trainingseinrichtung zum Trainieren des MESM gemafi Patentanspruch 15 gelost. 

Durch Benutzen des erfindungsgemafien Verfahrens in der Trainingseinrichtung erfolgt 
10 eine im Vergleich zum Stand der Technik efFektivere Anpassung des MESM in dem 

Spracherkennungssystem an die individuellen sprachlichen Eigenheiten eines bestimmteii 
Benutzers des Spracherkennungssystems; die Quote mit welcher das Spracherkennungs- 
system dann die Bedeutungsinhalte in der Sprache des Benutzers richtig erkennt wird 
wesentlich verbessert. 

15 

Ansonsten entsprechen die Vorteile dieses Spracherkennungssystems und der Trainingsein- 
richtung den oben fiir das Verfahren diskutierten Vorteiien. 

Der Beschreibung der Erfindung sind folgende Figuren beigefiigt, wobei 

20 

Fig. la : ein erfindungsgemafies Verfahren zur Berechnung 

+ lb : eines gewunschten orthogonalisierten Randwertes « beschreibt; 

Fig. 2a : ein erfindungsgemafies Verfahren zur Berechnung 

r*ortho 

25 + 2b : einer orthogonalisierten Merkmalsfunktion *^ ^ beschreibt; 

Fig. 3 : ein Blockschaltbild eines erfindungsgema{?en Spracherkennungssystems; 

und 



30 
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Fig. 4 : einen Merkmalsbaum beschreibt. 

Es erfolgt im weiteren zunachst eine detaillierte Beschreibung eines Ausfuhrungsbeispiels 
der Erfindung unter Bezugnahme auf die Fig. la und lb. 

5 

Die Fig. la und lb veranschaulichen ein erfindungsgemafies Verfahren zum Berechnen 

eines verbesserten gewiinschten orthogonalisierten Randwertes ^ fur ein Merkmal 
a = PO in einem Sprachmodell. In einem ersten Verfahrens-schritt SI werden gemafi 
diesem Verfahren alle in dem Sprachmodell definierten Merkmale Pi mit i = 1 ... g 
10 bestimmt, welche eine sog. hohere Reichweite aufweisen als das vorbestimmte Merkmal 
a = pO, d.h. welche dieses an einer vorbestimmten Stelle ei^schlie^?en. Anschliefiend wird 
in einem Verfahrensschritt S2 fur alle Merkmale Pi mit i = 0 ... g, also auch fiir das 
Merkmal a = pO, ein gewiinschter Randwert mPi der urspriinglichen Trainingsaufgabe 
berechnet. 

15 

Fiir die Berechnung eines solchen gewiinschten Randwertes mPi sind verschiedene 
Methoden im Stand der Technik bekannt. 

Gemafi einer ersten Methode erfolgt die Berechnung dadurch, dass zunachst eine Haufig- 
20 keit N(Pi) ermittelt wird, mit welcher die zugehorige binare Merkmalsfiinktion fpi bei 
Anwendung auf einem Train ingskorpus des Sprachmodells den Wert 1 ergibt und dass 
anschliefiend der so ermittelte Haufigkeitswert N(Pi) geglattet wird. 

Gemafi einer zweiten alternativen Methode erfolgt die Berechnung durch Reduktion von 
25 Merkmalsmengen in dem Sprachmodell so lange, bis die Randbedingungen keine Wider- 
spriiche mehr aufweisen. Eine derartige Reduktion von Merkmalsmengen muss in der 
Praxis sehr umfangreich sein, weil ansonsten das erzeugte Sprachmodell keine Lbsung mehr 
zu der urspriinglichen Trainingsaufgabe darstellt. 

Gemafi einer dritten Methode erfolgt die Berechnung durch Benutzung eines sogenannten 
30 induzierenden Sprachmodells, wie es in J.Peters und D.Klakow, "Compact Maximum 
Entropy Language Models", Proc. ASRU, Keystone, Colorado, 1999 beschrieben ist. 



-7- 



PHDEO 10032 

•n.o 



In einem Verfahrensschritt S3 werden nachfolgend alle Merkmale Pi nach ihrer Reichweite 
sortiert, wobei einem Merkmal Pi mit der grofiten Reichweite der Index i = g zugeordnet 
wird. Dabei kann es durchaus vorkommen, dzss einzelnen Reichweitenklassen, also z.B. 
der Klasse Bigramme oder der Klasse Trigramme, mehrere Merkmale pi zugeordnet 
5 werden. In diesen Fallen sind mehrere Merkmale pi mit unterschiedlichen, aber auf- 
einanderfolgenden Indizes i ein und derseiben Reich weitenklasse zugeordnet, d.h. diese 
Merkmale haben dann jeweils dieselbe RW und gehoren derseiben Reichweitenklasse an. 

Fiir den Ablauf des Verfahrens, bei welchem in den nachfolgenden Schritten die einzelnen 
10 Merkmale pi der Reihe nach ausgewertet werden, ist es wichtig, dass die Merkmale nach 
absteigender (oder gleichbleibender) Reichweite abgearbeitet werden. Im ersten Durchlauf 
des Verfahrens wird daher mit einem Merkmal Pi begonnen, welches der hochsten Reich- 
weitenklasse zugeordnet ist; vorzugsweise wird i = g gesetzt (siehe Verfahrensschritte S4 
und S5 in Fig. la). 

15 

In einem nachfolgenden Verfahrensschritt S6 wird gepriift, ob es zu dem aktuell ausge- 
wahlten Merkmal Pi hoher- reichweitige Merkmale pk mit i < k < g gibt, welche das 
Merkmal Pi einschlieGen, Beim ersten DurchlauiF gehort das Merkmal pi mit i=g, wie oben 
gesagt, automatisch der Klasse mit der hochsten Reichweite an und deshalb ist die Abfrage 
20 in Verfahrensschritt S6 fur dieses Merkmal pi zu verneinen. In diesem Fall springt das 
Verfahren zu Verfahrensschritt S8, wo ein Parameter X zu Null gesetzt wird. Es erfolgt 
daraufhin eine Berechnung eines verbesserten gewiinschten orthogonalisierten Randwertes 

^ fur das Merkrhal pi (beim ersten Durchlauf mit i=g) gemafi Verfahrensschritt S9. 
Wie dort ersichtlich, wird dieser Randwert fur das Merkmal Pi dem in Schritt S2 berech- 
25 neten gewiinschten Randwert mpi gleichgesetzt, wenn der Parameter X=0 ist (dies ist z.B. 
beim ersten Durchlauf der Fall). 

Die Verfahrensschritte S5 bis SI 1 werden daraufhin sukzessive fiir alle Merkmale Pi-1 mit 
i-1 = g-1 ... 0 wiederholt. In Verfahrensschritt SIO findet eine dafur notwendige Neu- 
30 initialisierung des Indexes i statt und in Verfahrensschritt SI 1 erfolgt eine Abfrage, ob alle 
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Merkmale pi mit i = 0 ... g abgearbeitet worden sind. 

Fur aile Merkmale pi, fur welche hoher-reichweitige Merkrhale pk mit i < k < g existieren, 
ist die Abfrage in Verfahrensschritt S6 mit "Ja" zu beantworten. Der Parameter X wird 
5 dann nicht zu Null gesetzt, sondern berechnet sich gemafi Verfahrensschritt S7 durch 
Aufsummierung der entsprechenden, in vorherigen Durchlaufen jeweils in Verfahrens- 

schritt S9 berechneten verbesserten gewiinschten orthogonalisierten Randwerten ^ fiir 
die jeweils hoher-reichweitigen Merkmale pk. 

10 Sobald in Verfahrensschritt Sll festgestellt worden ist, dass der gewunschte orthogonali- 
sierte Randwert in Verfahrensschritt S9 berechnet worden ist, wird dieser in 

yy^ortho 

Verfahrensschritt S 12 als « ausgegeben. 



Das soeben ausfiihrlich beschriebene erfindungsgemafie Verfahren zur Berechnung des 

^ortho 

15 verbesserten gewiinschten orthogonalisierten Randwertes " iasst sich in Kurzschreib- 
weise gemafi folgender Forme! zusammenfassen: 



=ma. <*> . (4) 



20 Die Summe (*) umfasst alle hoher-reichweitigen Merkmale P, welche das vorbestimmte 

Ttt ^^^^ 

Merkmal a einschliefien. Zur Berechnung des Randwertes ^ ist die genannte Formel 
quasi rekursiv fiir jedes Merkmal P immer wieder anzuwenden, bis fur bestimmte Merk- 
male, namlich jene mit der hochsten Reichweite, der Summenterm verschwindet, well zu 
diesen Merkmalen keine hoher-reichweitigen existieren. Die gewiinschten orthogonali- 
25 sierten Randwerte fiir die hochstreichweitigen Merkmale pk entsprechen dann jeweils den 
urspriinglichen gewiinschten Randwerten mPk. 



Die Anwendung des erfindungsgemafien Verfahrens gemafi den Fig. la und lb soil nach- 
folgend durch Anwendung auf dem folgenden beispielhaften Trainingskorpus eines 
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Sprachmodells erlautert wcrden. Der Trainingskorpus lautet: 

"THAT WAS A RED 

OR A GREENHOUSE 
5 OR A BLUE HOUSE 

THIS IS A WHITE HOUSE AND 
THAT IS THE WHITE HOUSE" 

Das Trainingskorpus besteht aus N = 23 einzelhen Worten. Es sei vorausgesetzt, dass in 
10 dem Sprachmodell die gewiinschten Unigramm-, Bigramm- und Trigranom-Merkmale 
genia£ Fig. 4 vordefiniert sind. 



15 



Es kann dann durch Anwendung der normalen Merkmalsfiinktion fa auf das Trainings- 
korpus festgestellt werden, dass die Unigranune, Bigramme und Trigramme gemafi Fig. 4 
mit folgenden Haufigkeiten in dem Trainingskorpus vorhanden sind: 



20 



25 



30 



Unigramme; 
A 

HOUSE 

IS 

OR 
THAT 
WHITE 

Bi gramme: 
A 

OR 
WHITE 

Trigramme: 
A 



4 
4 
2 
2 

2 
2 



WHITE 
A 

HOUSE 



WHITE 



1 

2 
2 



HOUSE 
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In dem hier gezeigten Beispiel soil der verbesserte gewiinschte orthogonalisierte Randwert 

ortho 

^ fiir das Merkmal a = "HOUSE" berechnet werden. Dafiir sind zunachst gemafi 
Verfahrensschritt SI in Fig. la alie zu dem Merkmal a hoher-reichweitigen Merkmale zu 
bestimmen. Es sind dies gemafi Fig. 4 das Bigramm "WHITE HOUSE" und das Tri- 
gramm "A WHITE HOUSE". Gemaf? Verfahrensschritt S2 sind nun fiir diese hoher- 
reichweitigen Merkmale, aber auch fiir das Merkmal a die normalen gewiinschten Rand- 
wene zu berechnen, z.B. indem die jeweiligen, oben festgestellten Haufigkeiten geglattet 
werden. Diese Glattung erfolgt hier beispielhaft durch Subtraktion des Wertes 0,1. Damit 
ergeben sich folgende normale gewiinschte Randwerte: 



ma : "HOUSE" = 4 - 0,1 = 3,9 

m(3l : "WHITE HOUSE" = 2 ^ 0,1 = 1,9 

15 mp2 : "A WHITE HOUSE" = 1 - 0,1 = 0,9. 

Die Merkmale a. Pi, P2 werden nun ihrer Reichweite nach sortiert und es werden 
beginnend mit dem langst- reichweitigen Merkmal - die jeweiligen verbesserten 
gewiinschten orthogonalisierten Randwerte gemafi Formel (6) bzw. gemafi 
20 Verfahrensschritt S7 - S9 in Fig. la und lb berechnet: 



^pi ^0,9 (5) 



'w^r='w^i-w^r= 1,9 -0,9 = 1 



(6) 



y^ortho 

Schliefilich berechnet sich der verbesserte gewiinschte orthogonalisierte Randwert ^ 



fur das Merkmal a zu: 



mf^ = m„ - w^f " - m^-^"" = 3,9 - 1 - 0,9 = 2 
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Der so etfindungsgemafi berechnete orthogonalisierte Randwert ermoglicht eine 

ausreichend genaue Berechnung der freien Parameter A, und damit der Wahrscheinlichkeit 
gemafi Formel (1) im Hinblick auf eine ursprungHche Trainingsaufgabe bei gieichzeitig 
grofier Rechengeschwindigkeit bei Verwendung in dem GIS-Trainingsalgorithmus. 



ortho 



Nachfolgend wird die Verwendung des erfindungsgemafi berechneten Randwertes 
fiir drei unterschiedliche Varianten des GIS-Trainingsalgorithmus dargestellt. 



ortho 



Bei einer ersten Variante des GIS-Trainingsalgorithmus hat die mathematische Funktion G 
10 gemafi Gleichung 1 bei Verwendung des erfindungsgemafi berechneten orthogonalisierten 

^ ortho 



Randwertes folgende Gestalt: 



f 



f ortho ^ ortho 



ortho ^ ^ortho{n} 



ortho ortho 



(8) 



1 5 wobei: 



20 



n 
a 

Y 



ortho ^ ortho 



t 



^ ortho wt^'^^ 



einen Iterationsparameter; 

ein gerade betrachtetes Merkmal; 

alie Merkmale in dem Sprachmodell; 

die Grofie eines Konvergenzschrittes; 

gewiinschte orthogonalisiene Randwerte in dem MESM fiir die 
Merkmale a und y; 



25 



^ortho(n) 



ortho{n) 



iterative Naherungswerte fur die gewiinschten Randwerte 



^ortho wn^^^*^ 

.'"^ ;und 
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ba und by : Konstanten 

bezeichnen. 

Die Berechnung der Konvergenzschrittgrofien t und der iterativen Naherungswerte fur die 
gewunschten Randwerte m erfolgt - wie nachfolgend gezeigt wird - durch Verwendung 

Tortho 

einer erfindungsgemafi definierten orthogonalisierten Merkmalsfunktion , welche 

wie folgt lautet: 



'ortho P 

^ =fa. (9) 



Es sei an dieser Stelle betont, dass die gemafi Gleichung 9 erfindungsgemafi berechnete 

X ortho 

orthogonale Merkmalsfunktion in ihrem Betrag der von Rosenfeld a.a.O. vorge- 

schlagenen Merkmalsfunktion entspricht. Allerdings erfolgt ihre erfindungsgemafie 
15 Berechnung, wie in den Fig- 2a und 2b veranschaulicht, ganzlich anders. Das Berech- 

nungsverfahren lauft analog ab zu dem in den Fig. la und lb beschriebenen Verfahren zur 

Berechnung der gewunschten orthogonalisierten Randwerte ^ , wobei lediglich das 
Symbol fiir den Randwert m durch das Symbol fur die Merkmalsfunktion f und der 
Parameter X durch die Funktion F zu ersetzen ist. Um Wiederholungen zu vermeiden, 
20 wird an dieser Stelle fiir Erlauterungen des Verfahrens gemafi Fig. 2a und 2b auf die 
Beschreibung der Fig. la und lb verwiesen. 



r ortho 
' a 



Mit der so erfmdungsgemafi berechneten orthogonalisierten Merkmalsfunktion 

X ortho ^ ortho ^ ortho 

bzw. berechnet sich die Grofie der Konvergenzschritte « und ^ in Gleichung 

25 8 wie folgt: 



^ ortho 



^ Ortho 



_ r 



= 1/ 



M 



ortho 



mit 



(10) 
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ortho 



15 



wobei Mortho fur binare Merkmalsfunktionen "^^ die maximale Anzahl von 
Funktionen reprasentiert, welche fur dasselbe Argument (h,w) den Wert 1 liefern. 



ortho 



Weiterhin berechnet sich mit der erfindungsgemafi definierten Merkmalsfunktion 
der iterative Naherungswert « fiir den gewunschten orthogonalisierten Rajidwert 
^ bei analoger Anwendung der Gleichung (2) wie folgt: 



; (11) 



10 wobei: 

N(h) : die Haufigkeit der Historie h im Trainingskorpus; und 

: einen Iterationswert fiir die Wahrscheinlichkeit p(w | h), mit welcher 
sich ein vorgegebenes Wort w an eine bisherige Wortfolge h (Historie) 
anschliefit; 



bezeichnet. Hierbei benutzt P \^\^) die Parameterwerte « 



Die Verwendung des erfindungsgemafi berechneten verbesserten gewunschten orthogo- 

ortho 

nalisierten Randwertes empfiehlt sich weiterhin fiir eine zweite Variante des GIS- 

20 Trainingsalgorithmus. Hierbei sind die Merkmale des MESM in m Gruppen Ai alufgeteilt, 

jiortho 

und pro Iteration werden nur die Parameter ^ der Merkmale a,aus einer der Gruppen 
gemafi der folgenden Formel verandert: 



nrtho ^ Z^^V 



_ j^ortho(n) ^ ^ortho ^ j^g 



(12) 
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wobei: 

n : der Iterationsparameter 

Ai(n) : eine in dem n'ten Iterationsschritt ausgewahlte 

5 Merkmalsgruppe Ai(n) mit 1 < i < m; 

a : ein gerade betrachtetes Merkmal aus der gerade 

ausgewahlten Merkmalsgruppe Ai(n) ; 

P : alle Merkmale aus der Merkmalsgruppe Ai(n); 

^ortho ^ortho 

^ , ^ : die Grofie eines Konvergenzschrittes mit 

^ ortho f ortho i yf ortho 

10 h ^ m 



20 



wob 



ei 



fur binare Funktionen die maximale Anzahl von 

Funktioncn aus der Merkmalsgruppe Ai(n) reprasentiert, welche fur 
15 dasselbe Argument (h,w) den Wert 1 liefern; 

^ortho ^ortho 

" ^ ^ : gewunschte orthogonalisierte Randwerte in dem MESM fur 



^ortho(n) ^ortho(n) 



die Merkmale a bzw. 3; 

iterative Naherungswerte fiir die gewunschten Randwerte 

^ ortho ^ortho 



^ ortho 

Die Gruppe Ai(n) von Merkmalen a, deren Parameter « im aktuellen Iterationsschritt 
angepasst werden, durchlauft dabei zyklisch gemafi i(n)=n(mod m) alle m Gruppen. 

Die Verwendung des erfindungsgemafi berechneten gewunschten orthogonalisierten 

^ortho 

25 Randwertes « empfiehlt sich weiterhin fur eine dritte Variante des GIS-Trainings- 

algorithmus, welche sich von der zweiten Variante lediglich dadurch unterscheidet, dass die 
bei jedem Iterationsschritt zu verwendende Merkmalsgruppe Ai(n) nicht zyklisch, sonde 



lern 
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i 

nach einem vorbestimmten Kriterium ' ausgewahlt wird. 

In Fig. 3 ist schlie{?lich ein Spracherkennungssystem 10 gemai? der vorliegenden Erfindung 
dargestellt^ welches auf Basis des sog. Maximum-Entropie-Sprachmodells arbeitet. Es 
5 umfasst eine Erkennungseinrichtung 12, welche den Bedeutungsinhalt von bereitgesteilten 
Sprachsignalen zu erkennen versucht. Die Sprachsignale werden dem Spracherkennungs- 
system iiblicherweise als Ausgangssignale eines Mikrophons 20 bereitgestellt. Die Erken- 
nungseinrichtung 12 erkennt den Bedeutungsinhalt der Sprachsignale dadurch> dass sie 
Muster in dem empfangenen akustischen Signal auf vordefinierte Erkennungssymbole, wie 

10 Z.B. bestinrunte Worte, Handlungen oder Ereignisse, mit Hilfe des implementierten 

Maximum Entropie Sprachmodells MESM abbildet. Schliefilich gibt die Erkennungsein- 
richtung 12 ein Ausgangssignal aus, welches den in dem Sprachsignal erkannten Bedeu- 
tungsinhalt reprasentiert und zur Ansteuerung von verschiedensten Geraten, z.B. eines 
Textverarbeitungsprogramms oder eines Telefons nach MafSgabe durch diesen Bedeutungs- 

1 5 inhalt dienen kann. 

Fiir eine moglichst fehlerfreie Ansteuerung der Gerate im Sinne des Bedeutungsinhaltes 
von steuernder Sprachinformation ist es erforderlich, dass das Spracherkennungssystem 10 
die Bedeutungsinhalte der auszuwertende Sprache mit einer moglichst hohen Quote richtig 

20 erkennt, Dazu ist eine moglichst gute Anpassung des Sprachmodells an die sprachlichen 
Besonderheiten des Sprechers, d.h. des Benutzers des Spracherkennungssystems erforder- 
lich. Diese Anpassungsaufgabe leistet eine Trainingseinrichtung 14, welche entweder 
extern oder in das Spracherkennungssystem 10 integriert betrieben werden kann. Genauer 
gesagt dient die Trainingseinrichtung 14 zum Anpassen des MESM in dem Spracher- 

25 kennungssystem 10 an wiederkehrende statistische Muster in der Sprache eines bestimmten 
Benutzers. 

Sowohl die Erkennungseinrichtung 12 wie auch die Trainingseinrichtung 14 sind 
iiblicherweise, aber nicht notwendigerweise, als Softwaremodule ausgebildet und laufen auf 
30 einem geeigneten Computer (nicht gezeigt) ab. 
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PATENTANSPRCCHE 



j^rtho{n) 

1. Verfahren zum iterativen Berechnen freier Parameter ^ ernes Maximum-Entropie- 
Sprachmodells MESM mit Hilfe des Generalised-Iterative-Scaling-Trainingsalgorithmus 
gemafi folgender Formel: 

wobei: 

n : einen Iterationsparameter; 

G : cine mathematische Funktion; 

10 a : ein Merkmal in dem MESM; und 

^ortho 

^ : einen gewunschten orthogonalisierten Randwert in dem MESM fiir das 

Merkmal a; 
dadurch gekennzeichnet, 

^ortho 

dass der gewiinschte orthogonalisierte Randwert ^ durch Linearkombination des 

15 gewunschten Randwertes mit gewunschten Randwerten von zu dem Merkmal a 
hoher-reichweitigen Merkmalen P berechnet wird. 

2. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet, 

^ ortho 

20 dass die Berechnung des gewunschten orthogonalisierten Randwertes ^ fiir das 
Merkmal a=P0 folgende Schritte umfasst: 
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a) Auswahlen aller Merkmale Pi mit i=l...g in dem Sprachmodell, welche eine hohere 
Reichweite RW aufweisen als das Merkmal a=P0 und dieses jeweils einschliefSen; 

b) Berechnen von gewiinschten Randwerten mPi fiir die Merkmale pi mit i=0...g; 

c) Sortieren der Merkmale Pi mit i= 0...g nach ihrer RW; 

d) Auswahl eines der Merkmale Pi mit der hochsten RW; 

e) Prufen, ob es zu dem ausgewahlten Merkmal Pi andere Merkmale Pk hoherer RWgibt, 
welche das Merkmal Pi einschiiefien; 

fl) Wenn ja, dann Definieren eines Parameters X als Linearkombination der beim letzten 
Durchlauf der Schritte e) bis g) in Schritt g) berechneten orthogonalisierten Randwerte 

^ fiir alle im zuletzt ausgefiihrten Schritt e) bestimmten hoher-reichweitigeri 
Merkmale Pk; 

£2) Wenn nein, dann Definieren des Parameters X zu X = 0; 

^ortho 

g) Berechnen des gewiinschten orthogonalisierten Randwertes ^ fur das Merkmal Pi 
durch arithmetisches Verkniipfen des gewiinschten Randwertes mPi mit dem Parameter X; 
und 

h) Wiederholen der Schritte e) bis g) fiir das Merkmal 

pi- 1, dessen RW kleiner oder gleich der RW des Merkmals Pi ist, solange bis der 

^ ortho ortho 

gewunschte orthogonalisierte Randwert " mit i=0 in Schritt g) berechnet 

worden ist. 
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3. Verfahren nach Anspruch 2, 
dadurch gekennzeichnet, 

dass die Berechnung des Parameters X in Schritt fl) gemafi folgender Formei erfolgt: 

5 * 

4. Verfahren nach Anspruch 3, 
dadurch gekennzeichnet, 

^ ortho 

dass die Berechnung des gewunschten orthogonalisierten Randwertes ^' in Schritt g) 
10 gemafi der folgenden Formei erfolgt: 



15 5. Verfahren nach Anspruch 2, 
dadurch gekennzeichnet. 

dass die Berechnung von gewunschten Randwerten fur die Merkmale Pi mit i= 0,...,g 
in Schritt b) durch jeweiliges Berechnen der Haufigkeit N(Pi), mit welcher das Merkmal P 
i in einem Trainingskorpus enthalten ist, und durch nachfolgendes Glatten des 
20 berechneten Haufigkeitswertes N(Pi) erfolgt. 



25 
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6. Verfahren nach Anspruch 5, 
dadurch gekennzeichnet, 

dass die Berechnung der Haufigkeit N(Pi) durch Anwenden einer binaren 
Merkmalsfunktion fpi auf den Trainingskorpus erfolgt, wobei fpi deRniert ist als: 



//,(A.w) = 



1 falls p,. zur Wortfolge (h,w) passt 
0 sonst 



und wobei ^ fi^^^"^^ eine Aussage dariiber macht, ob das Merkmal Pi ein durch die 
Wortfolge (h,w) vorgegebenes Muster richtig beschreibt. 

/• Verfahren nach Anspruch 1, 
dadurch gekennzeichnet, 

dass die mathematische Funktion G als weitere Variable die Grofie eines 

^ortho 

Konvergenzschrittes ^ mit: 

/ortho 



aufweist, wobei 



ortho 
a 



Mortho : fur binare Funktionen -^^ die maximale Anzahl von Funktionen 
reprasentiert, welche fur dasselbe Argument (h,w) den Wert 1 liefern. 

8. Verfahren nach Anspruch 7, 
dadurch gekennzeichnet> 

J- ortho /. 

dass die Merkmalsfunktion durch Linearkombination einer Merkmalsfunktion ^ °- 

X ortho 

mit orthogonalisierten Merkmalsfunktionen ^ ^ von zu dem Merkmal a hoher- 
reichweitigen Merkmalen P berechnet wird. 
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9. Verfahren nach Anspruch 8, 
dadurch gekennzeichnet> 

X ortho 

dass die Berechnung der orthogonalisierten Merkmalsfunktion -^^ fur das Merkmal a= 
PO folgende Schritte umfasst: 

a) Auswahlen aller MerkmaJe |3i mit i=l...g in dam Sprachmodell, welche eine hohere 
Reichweite RW aufweisen als das Merkmal a=P0 und dieses jeweils einschliefSen; 

b) Berechnen von Merkmalsfunktionen f|3i fiir die Merkmale fii mit i=0...g; 

c) Sortieren der Merkmale pi mit i= 0...g nach ihrer RW; 

d) Auswahl eines der Merkmale Pi mit der hochsten RW; 

e) Priifen, ob es zu dem ausgewahlten Merkmal pi andere Merkmale pk hoherer RW gibt, 
welche das Merkmal Pi einschliefien; 

fl) Wenn ja, dann Definieren einer Funktion F als Li nearkombi nation der beim letzten 
Durchlauf der Schritte e) bis g) in Schritt g) berechneten orthogonalisierten 

X ortho 

Merkmalsfunktion fiir alle im zuletzt ausgefiihrten Schritt e) bestimmten hoher- 

reichweitigen Merkmale Pk; 

£2) Wenn nein, dann Definieren der Funktion F zu F = 0; 

^ ortho 

g) Berechnen der onhogonalisierten Merkmalsfunktion fiir das Merkmal Pi durch 
arithmetisches Verkniipfen der Merkmalsfunktion fpi mit der Funktion F; und 

h) Wiederholen der Schritte e) bis g) fiir das Merkmal Pi-1, dessen Reichweite kleiner oder 
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gleich der Reichweite des Merkmals 3i ist, solange bis die orthogonalisierte 

X' ortho X ortho 

Merkmalsfunktion ^ mit i=0 in Schritt g) berechnet worden ist. 

10. Verfahren nach Anspruch 9> 
dadurch gekennzeichnet, 

dass die Berechnung der Funktion F in Schritt fl) gemal? folgender Formel erfolgt: 



1 1 . Verfahren nach Anspruch 9, 
dadurch gekennzeichnet. 

X ortho 

dass die Berechnung der orthogonalisierten Merkmalsfunktion in Schritt 

g) gemal? der folgenden Formel erfolgt: 

12. Verfahren nach Anspruch 1, 
dadurch gekennzcichnet. 

dass. die mathematische Funktion G folgende Gestalt hat: 



j^ortho(n+l) ^ Q^j^ortho(n) ^ortho ^ 



wobci: 

a : ein gerade betrachtetes Merkmal; 
Y : alle Merkmale in dem Sprachmodell; 
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5. 



uortko fortho 
'a r 



^ortho j^ortho 



m 



10 baundby 



^ortho ^ortho j^ortho 

die Grofie eines Konvergenzschrittes mit " ^ =1/ 



mit 



Mortho 
= max 



xortho 

wobei Mortho fiir binare Funktionen ^ die maximale Anzahl 
von Funktionen reprasentieit, welche fiir dasselbe Argument (h,w) 
den Wert 1 liefern; 

gewunschte orthogonalisierte Randwerte in dem MESM fiir die 
Merkmale a und y; 

iterative Naherungswerte fiir die gewiinschten Randwerte 

^oriho M^^^ 



ml 



ml 



, ; und 
Konstanten 



bezeichnen. 



13. Verfahren nach Anspruch 1, 
15 dadurch gekennzeichnet, 

dass die mathematische Funktion folgende Gestalt hat: 

r 



m 



ortho 



1- 



p nip 



ortho(n) \ ^ 



m 



ortho{n) 



1- 



20 wobei: 

n : der Iterationsparameter 

Ai(n) : eine in dem n'ten Iterationsschritt ausgewahlte Merkmalsgruppe Ai(n) mit l<i<m; 
a : ein gerade betrachtetes Merkmal aus der gerade ausgewahlten Merkmalsgruppe 
Ai(n); 
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2.6 



3 : aJle Merkmale aus der Merkmalsgruppe Ai(n); 



^ ortho ^ ortho 



^ : die Grofie eines Konvergenzschrittes mit 



^ortho f ortho \yf ortho 

= V = l/^'C") mit 



, ^ ortho 
1V± i(n) ^^^^ 



^^orf/io ortho 

wobei '^"^ fiir binare Funktionen ^ ^ die maximale Anzahl 
von Funktionen aus der Klerkmalsgruppe Ai(n) reprasentiert, 
welche fiir dasselbe Argument (h,w) den Wert 1 liefern; 

^ortho j^orthp 

<^ , ^ : gewiinschte orthogonalisierte Randwerte in dem MESM fiir die 
10 Merkmale a bzw. P; 

^ortho(n) ^orthoin) 

^ J ^ : iterative Naherungswerte fiir die gewiinschten Randwerte 

^ortho 



wobei die Auswahl der Gruppe Ai(n) von Merkmalen a, deren zugehorige Pararrieter 

j^ortho . 

15 "in einem aktuellen Iterationsschritt angepasst werden, entweder zyklisch oder nach 
einem vorgegebenen Kriterium erfolgt. 

14. Spracherkennungssystem (10) mit: 

einer Erkennungseinrichtung (12) zum Erkennen des Bedeutungsinhaltes eines von einem 
20 Mikrophon (20) aufgenommenen und bereitgestellten akustischen Signals, insbesondere 
eines Sprachsignals, durch Abbilden von Teilen dieses Signals auf vordefinierte 
Erkennungssymbole, wie sie von dem implementierten Maximum Entropie Sprachmodell 
MESM angeboten werden, und zum Erzeugen von Ausgangssignalen, welche den 
erkannten.Bedeutungsinhalt reprasentieren; und 
25 einer Trainingseinrichtung (14) zum Anpassen des MESM an wiederkehrende statistische 
Muster in der Sprache eines bestimmten Benutzers des Spracherkennungssystems (10); 
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dadurch gekennzeichnet, 

dass die Trainingseinrichtung (14) freie Parameter X in dem MESM gemaiS dem Verfahren 
nach Anspruch 1 berechnet. 

15- Trainingseinrichtung (14) zum Anpassen des Maximum Entropie Sprachmodells 
MESM in einem Spracherkennungssystem (10)^ an wiederkehrende statistische Muster in 
der Sprache eines bestinunten Benutzers des Spracherkennungssystems (10), 
dadurch gekennzeichnet« 

dass die Trainingseinrichtung (14) freie Parameter X in dem MESM gemafi dem Verfahren 
nach Anspruch 1 berechnet. 
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ZUSAMMENFASSUNG 

Spracherkennungssystem, Trainingseinrichtung und Verfahren zum iterativen Berechnen 
freier Parameter eines Maximum-Entropie-Sprachmodells 

Die Erfindung betrifFt ein Spracherkennungssystem und ein Verfahren zum iterativen 

5 Berechnen freier Parameter ^ eines Maximum-Entropie-Sprachmodells MESM mit 
Hilfe des Generalised-Iterative-Scaling-Trainingsalgorithmus in einem computergestutzten 

Spracherkennungssystem gemai? der Formel ^ \ a ^ a ' ' *>',wobein 

einen Iterationsparameter, G eine mathematische Funktion, a ein Merkmal in dem 

j^ortho 

MESM und ° einen gewiinschten orthogonalisierten Randwert in dem MESM fiir das 
10 Merkmal a bezeichnet. Es ist die Aufgabe der Erfindung, das System und das Verfahren 
^ derart weiterzubilden, dass sie eine schnelle Berechnung des freien Parameters X ohne 

Veranderung der urspriinglichen Train ingsaufgabe ermoglichen. Erfindungsgemafi wird 

diese Aufgabe dadurch gelost, dass der gewUnschte orthogonalisierte Randwert ^ 

durch Linearkombination des gewiinschten Randwertes mit gewiinschten Randwerten 

15 von zu dem Merkmal a hoher-reichweitigen Merkmalen P berechnet wird. Hierbei 

sind und gewiinschte Randwerte der urspriinglichen Trainingsaufgabe. 
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1/5 



Besfimmen aller Merkmale pj mif i=1...g , 
welche eine hbhere Reichweife aufweisen 
In Bezug auf ein Merkmal a = pO 
und dieses an einer vorbesMmmfen Stelle einschliefJen. 



SI 



® 



I 



Berechne mp. mit i=0...g 



I 



52 



Sorfieren der Merkmale pinach ihrer RW . 
wobel i=g die hbchsfe RW reprasenh'ert 



I 



-S3 



i=g 



•S4 



Auswahl des Merkmals pj 



S5 



_ ^S6 

Gibf es 
zu dem Merkmal p,- 
vorbestimmte hoherreichweitlgere Merkmale p^ 
mit i<ksg , welche das Merkmal p,- 
einschlienen ? 



nein 



Bilde 



m a 

k Pi' 



S8 

4. 



X=0 



Fig.la 
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Besf-immen aller Merkmale p. mif i=1...g , 
welche eine hbhere Reichweife aufweisen 
in Bezug auf ein Merkmal a = pO 
und dieses an einer vorbesfimmten Sfelle einschlieflen. 



•SI 



I 



Berechne fp. mit i=0...g 



I 



52 



SorHeren der Merkmale Pi nach ihrer RW . 
wobei i=g die hochsfe RW reprasenh'ert 



-S3 



1 



o 




® 



Auswahl des Merkmals Pi 



^S6 

Gibf es 
zu dem Merkmal pi 
vorbesHmmfe hdherreichweitigere Merkmale pk 
^ mil- i<ksg , welche das Merkmal pi 
einschlieflen ? 



Bilde 



orfho 



nem 



S8 



F=0 



Fig.2a 



